iT邦幫忙

2025 iThome 鐵人賽

DAY 5
0
AI & Data

AI初學者入門系列 第 5

Day5 Embedding 與向量概念

  • 分享至 

  • xImage
  •  

今天來介紹embedding:

embedding是把文字轉換成一個向量的過程,這樣電腦就可以用數學方式理解它

向量:

它可以是一個維度為 n 的數字陣列
例如: "我喜歡拉麵" → [0.12, -0.54, 0.78, ..., 0.03]

為何能用於相似度判斷?

因為轉換後的向量具有以下性質:

  • 語意相近的文字,其向量「距離較近」
  • 語意相遠的文字,其向量「距離較遠」

在 NLP 中,最常見的是 詞嵌入(Word Embedding) 或 句子嵌入(Sentence Embedding)

  1. 詞嵌入(Word Embedding) :每個詞轉成一個固定維度的向量 適用於比較「詞」的相似性
    例如: 蘋果:[0.23,-0.11……0.87]
  2. 句子嵌入(Word Embedding) :每個句子轉成一個固定維度的向量,保留上下文與語境。
    適用於比較「句子」的相似性

我利用Sentence-Transformers 的MiniLM-BERT模型(原本設定每個句子384維),全部個句子都各化為2維,參考一下就好~~

https://ithelp.ithome.com.tw/upload/images/20250807/201779052uhnvOkPNi.png

越靠近越相似,可能會是結構相似、語意相似……


上一篇
Day4 ChatGPT API 使用方法
下一篇
Day6 使用 OpenAI Embedding API
系列文
AI初學者入門30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言